0x01 AIOps 背景 1.1 AIOps概述 智能运维的理想状态就是把运维工作的三大部分:监控、管理和故障定位,利用一些机器学习算法的方法把它们有机结合起来。 AIOps平台主要通过整合分析IT基础设施、APM、NPM、日志、数字化体验监测数据,来提升IT运维流程的效率。 2.6.3 微众银行知识图谱 传统根因推导过程是运维工程师通过对软件架构和调用关系的理解将异常发生时的告警、日志等信息联系在一起,应用运维知识经验来排查推导异常根因,相当于在大脑中存储和训练了一个知识图谱 (AIOps)中几处问题的解决方案与思路 AIOps智能运维之三:无监督异常检测 技术干货 | 日志易产品总监饶琛琳:数据驱动的智能运维平台 从人肉到智能,阿里运维体系经历了哪些变迁? 根因分析初探:一种报警聚类算法在业务系统的落地实施 京东物流基于开源APM的智能运维体系建设与落地 百度 AIOps 实践中的四大金刚
我整理了传统运维和智能运维在6个核心维度的对比,让你看清楚这个差距到底有多大。维度一:如何发现问题传统运维:靠监控告警被动通知。 维度三:如何传承知识传统运维:知识在人头上。老员工知道哪些坑,新员工需要几个月才能上手运维手册写了但没人看,更没人更新核心人员离职=运维能力断崖式下降智能运维:知识在系统里。 维度四:如何管理多云传统运维:三个云=三份工作。每个云一套控制台,各自登录各自的告警系统,各自的账单,各自的权限管理汇总多云数据需要人工整理,每周半天不止智能运维(CloudQ):一个入口,统一视图。 一键生成可视化巡检报告,直接转发给团队同事点链接直接跳转控制台处理,免密登录订阅推送,报告按时送到,不需要手动触发维度六:成本意识传统运维:资源浪费难以发现。 总结传统运维和智能运维的差距,不只是工具的差距,是工作方式的差距:从被动响应到主动预防从个人经验到系统知识从多地登录到统一视图从手工报告到自动化推送腾讯云CloudQ(JustQIT!)
随着智能化技术的发展,为了解决上述运维领域的问题,智能运维的呼声越来越高。 3、在大数据时代, 智能运维与数据、自动化运维之间的关系 智能运维的理想状态就是把运维工作的三大部分(监控、管理和故障定位),利用一些机器学习的方法有机结合起来。 目前能够把这三部分融合起来的办法就是利用人工智能的手段,最后达到一种智能运维的状态。 4、智能运维当下的状况及智能运维发展的预测 智能运维当下还是一个初步探索的阶段。 传统的 IT 运维需要管理大量的告警,极大地分散了企业的注意力,消耗运维人员大量的时间和创新力。 现在比较明确的是大家会朝着智能运维方向发展,并且智能运维的发展一定是一个长期演进的过程。 对于智能运维的发展预测,我的简单看法如下: 智能运维会首先体现出其在告警系统上的价值。
一、AI为什么对IT运维重要? 传统运维存在几个痛点:传统运维痛点AI带来的改变告警量大、难筛选根因AI可识别告警关联性并自动根因定位故障靠人工排查,耗时长模型可溯源日志、抓异常趋势并提前预警运维经验靠个人积累,不可复制AI沉淀规则→ 变成可复用知识库人工巡检、排障重复度高AI可自动巡检、自动修复脚本闭环AI真正落地价值:节省人力成本、缩短故障恢复时间(MTTR)、减少业务中断风险二、AI赋能IT运维的核心能力AI功能作用可落地场景日志分析 价值:✔避免数据库节点宕机✔保障核心账单业务不出现停机✔形成长期健康评分体系案例3:AI自动化运维闭环–服务异常自动恢复目标异常发生后不依赖人工处理,形成无人值守自动修复系统。 写在最后AI赋能运维不是概念,而是已能实打实落地的生产力工具。一句总结:AIOps=经验沉淀+自动分析+主动预测+自动修复,最终目标是无人值守与业务持续可用。
到2022年,40% 的大型企业会通过大数据和机器学习的能力来帮助甚至逐渐取代传统运维中的监控、服务台及自动化流程。 AIOps重新定义了IT运维的管理方式,为IT运维团队适时提供适当信息,以便实现以下几点。 ,推送给运维人员,做到精细化告警,避免传统监控工具因一故障而导致的告警风暴,生产告警噪音。 AIOps与现有ITOM平台的关系具体如何呢?传统IT运维管理平台,即 ITOM 平台,往往是为完成单一管理任务而设计的,更偏向于管理某一细分专业领域。 规模不断扩大的 IT 系统、日益复杂的系统架构,以及海量的 IT 运维数据对使用传统ITOM的运维人员而言都如芒在背。
而作为救火队员的运维在产品业务建设初期参与架构规划也是减少后期运维灾难的重要手段。 智能化 运维本来就是在解决各种场景下的问题,智能化技术是一些新手段帮助运维解决过去解决不了的问题,我认为能利用好这个技术手段解决问题的就算是智能运维了。 AIOps 并非万能,但它的的确确能让运维彻底脱离重复低效的手工作坊式的工作。从运维升级成技术运营,因此焕发第二春。 腾讯在智能运维应用上有哪些套路和高招? 作为一名伴随腾讯十年的运维老兵,腾讯运维总监聂鑫有话对你说... 个人简介: 从开发到运维,伴随腾讯社交网络运营部成长的十年,负责过腾讯社交产品所有业务运维工作。 作为运维界老兵有好多故事想和大家讲,也特别愿意听听各位经历的酸甜苦辣。 2018年5月26日,高效运维 AIOps 北京沙龙,腾讯运维总监聂鑫老师将来到现场,并分享腾讯在智能运维领域的实践经验。
图片来自网络 在传统的运维里面问题发现可能是系统,但是最终的问题分析定义,问题决策和问题解决则是需要人工进行处理。 图片来自网络 在该图里面也可以看到,智能化运维在传统的自动化运维平台和功能的基础上,增加了底层的大数据存储,处理和分析技术平台能力。同时增加了AI算法库,AI建模分析能力。 ? 对于运维自动化,传统我们可能是编写自动化的运维脚本,然后是手工或定时的执行运维脚本完成整个自动化执行过程和运维例行检查。 优维自动化运维平台解决方案不同于传统的单一业务自动化解决方案,是真正面向企业运维部门提供平台+场景能力的解决方案。 智能运维在传统软件运维监控的基础上,能够进一步做到出现问题也能够被自动修复和解决,而不需要人工干预。
本期沙龙围绕运维展开了一场技术盛宴,从AIOps、Serverless DevOps、蓝鲸PaaS平台、K8S等分享关于业务运维的技术实践干货,同时带来腾讯海量业务自研上云实践,推动传统运维向云运维转型 然后很多人在上面开发各种各样的工具,再将公共的能力,或者说是通用的能力给它抽建出来,抽建出来就可以逐渐搭建我们AIOPS的算法工具。这个就是工具开发和运维开发的东西。 第一个能够做的肯定是异常检测,我想几乎所有的运维公司或者说企业,或者说是个人,甚至到部门的话,只要做机器学习,AIOPS肯定就是从异常检测开始,后面可能会做一些预测、多维分析或者是其他的分析包括一些余型监控这样的东西 而在整个AIOPS这一块,我们也和很多同行讨论过,在这个角色划分这一块,运维团队其实是一个比较复杂的团队,只有运维是不太够的,运维主要是了解业务场景的诉求,包括他想知道当前的业务出现了什么情况,他该如何处理这个故障 在这个AIOPS过程中这一块是非常重要的,缺了它就很难做成,所以运维工程师、开发工程师和机器学习的工程师是互联辅助、互联扶持的关系。 幻灯片8.PNG 下面我们来说一下单维时间序列分析。
运维之痛1:人肉 vs 平台 人肉不是传统运维的当下过失,是过去的延续。在早期,运维的很多能力建立在少量的高可用硬件对象之上,平台化的需求很弱。 不过很开心的是,传统企业运维人对运维平台拥抱非常强烈,从运维自身能力自动化到全流程的持续交付自动化。 我也经过和传统企业的IT部门深入广泛接触,大家对运维自动化作为突破口非常认可,更愿意以此为原点,单点突破,再全面覆盖。 运维之痛2:流程 vs 创新 很多人会告诉我,在传统企业中没办法,我们必须通过流程来驱动各个组织角色,确保协同工作。真的如此么?我们在腾讯维护那么多产品线,没有流程怎么做到的?然后真的会混乱不堪么? 传统企业的运维问题绝不是人的能力问题,是多方因素的综合结果,因此在寻求解决方案的时候,需要立体的方案。
而运维作为IT运行的有力保障,在不同时期和不同类型的企业中正在发挥着越来越大的支撑和引领作用,今天就让我们聊聊信息化时代的传统运维、互联网时代的互联网运维和数字化时代的业务运维有什么不同! 故障发生时,要求互联网运维能够第一时间发现问题,并快速进行根因分析,依靠人工巡检的传统运维管理方式严重落后,自动化运维逐渐流行。 ,传统运维和互联网运维难以有效支撑企业的数字化转型。 未来,随着机器学习、深度学习等技术的不断成熟,AI技术将在业务运维体系中得到广泛的应用,共同推动IT运维市场的进步,而这就是业务运维在几年之后发展方向——智能运维AIOps。 通过不断的数据积累和持续学习,智能运维AIOps将把运维人员从纷繁复杂、过度依赖人工的监控、发现、告警和修复工作中彻底解放出来,而运维也将变得更加自动化、智能化。
2016年,Gartner提出智能运维AIOps的概念,旨在使用大数据、机器学习等方法来提升运维能力,其目的是进一步降低自动化运维中人为干扰,最终实现运维无人化、自动化。 在面对当前复杂的技术架构、不断引入的创新技术之下,传统运维团队原来被动救火式、问题驱动式的经验运维,已经很难实现业务连续性的保障目标。 以场景为导向 场景驱动,以痛点、价值期望切入点,用智能赋能运维场景,落地智能运维能力。 AIOps从词来看,应该包括“AI+Ops”,是用AI赋能运维场景的模式。 为了规范国内智能运维领域的发展,中国信息通信研究院发布了《智能化运维AIOps能力成熟度模型》系列标准。 在《智能化运维AIOps能力成熟度模型》中,面向智能运维整体能力建设,规定了对IT系统或平台进行智能化运维的参考框架及分级评估方法,提出了关于企业建设智能化运维能力的实施路径,能够指导国内互联网和传统行业在智能运维方向的相关实践落地
那对于 AIOps 这个新名词,它又会涉及到哪些新技术?从运维的发展角度看,为什么说 AIOps 是必然趋势?它与自动化运维之间会有什么样的关系? 另外 AIOps 一定是建立在高度完善的运维自动化基础之上的,只有 AI 没有 Ops,是谈不上 AIOps。 InfoQ:你认为 AIOps 是运维发展的必然趋势吗? 从手工运维,到自动化运维,再到现在的 AIOps,谈谈你理解的运维发展趋势? 赵成:必然趋势。 当然这个过程中,因为云计算发展,传统的网络、硬件和系统维护的职责在逐渐的被弱化,也在逼迫着运维的关注点从底层转向应用和业务层面。 所以,运维一步步发展到当前这个状态,根本上讲还是业务高速发展倒逼出来的,同时,从手动运维到运维自动化,再到 AIOps,这个过程根本上是在朝着如何更加高效运维的趋势在发展。
4、部署和运维 由于微服务架构中有多个服务需要独立部署和运行,因此部署和运维的复杂性增加了。 将异常处理效率提高和用户体验提升后,运维人员的沟通成本将会极大被降低,这样运维人员就有更多时间进行技术投入,能将更多“人肉处理”的异常变成自助或自动处理,从而形成“飞轮效应”。 图片 这个图主要体现从数字化运维,智能化运维和智能化运营三个阶段,每个阶段递进,数学化运维主要体现的就是监控系统,发现问题,故障通知报警,而智能化运维体现的就是全链路智能化分析,当出现问题后 图片 随着AIOps的不断演进和实践,我们正逐步迈向一个更加智能、高效和稳定的运维新时代。 通过将人工智能技术与运维实践相结合,我们不仅能够提升故障响应和处理的速度,还能够在成本控制和资源优化方面取得显著成效。
超过 60% 的企业已经部署了 AIOps 平台,但大多数运维团队依然在"告警 → 排查 → 修复"的循环里疲于奔命。问题出在哪?本文换个角度看 AIOps——也许方向比工具更重要。 一、AIOps 的尴尬现状问一线运维人员一个问题:"你们上了 AIOps 之后,最大的变化是什么?"最常听到的回答是:"告警少了一点……吧?""有个告警聚合功能,还行。""说实话,没太大感觉。" 60% 的企业上了 AIOps,但只有不到 20% 的运维人员觉得"明显有用"。为什么? 二、两种 AIOps 思路:治已病 vs 治未病治已病(传统路线)治未病(CloudQ 路线)切入点监控数据核心能力告警降噪、异常检测、根因分析解决的问题出了问题更快发现价值体现MTTR(平均修复时间) 这才是 AIOps 应该有的样子:让运维人员少加班,而不是加班时效率高一点。
2、影响性能的因素 传统存储的封闭特性带来的优势是从存储操作系统软件到专用硬件的深度优化,而软件定义存储、Server SAN的目的是软件和硬件的解耦合,它们带来了灵活性,免除了硬件厂商锁定,但很多时候却不能充分发挥硬件的潜力
许多Ceph新手在测试环节以及预生产的时候会对Ceph集群的部署以及调优产生困扰,A公司运维小哥也遇到了部署和调优问题。下面来看看A公司运维小哥是如何解决这个问题的。 关卡二:部署调优关(部署) 难度:三颗星 上篇文章开头我也说到了,部署Ceph是新手的噩梦,对于传统运维来说部署一套Ceph是很难的事情,A公司运维小哥在官网以及Ceph中国社区的相关资料和帮助下才渐渐熟悉了什么是 图1:网络问题 第二回合:磁盘问题 解决了网络问题又迎来了磁盘分区的问题,运维小哥折腾了半天没弄好,后来在Ceph中国社区群友的帮助下解决了此事。 而此时就是考验一个运维人员的处理故障的基本素质,好在这个运维小哥有过一两年的经验,经过基本排查,最终确定了是时间问题。由于三个节点时间不一致而导致的这个问题,这里称之为“OSD打摆子”。 所以云平台也好存储也好,都会因为时间而产生不必要的故障问题,建议运维人员要注重时间问题。 ? 图8:Ceph集群 好了言归正传,上图是运维小哥新搭建好的集群。三节点、六个OSD的Ceph小集群。
运维从横向、纵向分可以分为多个维度和层次,本文试图抛开这纷繁复杂的概念,讲述一个传统的企业级运维人员转型到云运维人员,尤其是软件定义存储的运维之间经历的沟沟坎坎。 因此,云数据中心的运维对于传统的运维人员提出了新的能力要求——不仅要熟悉传统硬件设备,同时要掌握虚拟化、云系统的部署、监控和管理等运维能力。 Ceph运维工程师对于比传统运维人员既有相似点也有不同点,要做到能文能武,文能提笔写Ceph运维手册、预案手册等;武能挥手部署Ceph、进行预案演练、故障处理、集群扩容等。 所以下面我讲述一个真实的A公司传统企业运维人员转型运维Ceph SDS的历程。 本文主要说下硬件选型关卡。 欲知后事,且听下文《从传统运维到云运维演进历程之软件定义存储(二)》,主要讲述了A公司运维小哥在硬件选型完毕之后开始部署Ceph遇到的一些问题以及解决办法。
一、企业传统IT运维面临的挑战 我们的传统IT运维人员在运维工作上应该能体会到了三个明显的变化。 在这些场景下,依靠传统的资源管理和人工操作方式已经无法满足业务对运维服务的要求。 第三,运维服务用户越来越多 传统企业环境下,运维仅服务于研发,研发服务于业务部门,服务用户都比较单一。 这些技术,需要运维人员不断地学习和跟进。传统行业的运维人员,面对眼花缭乱的运维新技术,往往不知如何入手,陷入迷茫。 二、传统IT运维应该如何转变 面对各种业务上和技术上的新变化,传统的运维人员应该如何应对? 运维工作充满了大量的简单重复劳动,运维工作如何突围? 作为传统IT运维人员,需要从这方面多多学习和转变。 四、最后 如果说过去的传统运维像经营一家大排档,客人看菜点菜,厨师依需求做菜。
特别是在运维领域,ChatGPT的出现将会改变传统运维的走向。 提高运维自动化水平 ChatGPT可以在运维领域中自动处理重复性任务,包括自动化部署、故障诊断等。 此外,ChatGPT还可以帮助运维人员快速响应用户的问题,提高运维效率。 关键词:监控 优化资源配置 传统的运维管理中,资源配置通常是静态的,无法快速响应用户的需求。 关键词:资源调度 降低运维成本 在传统的运维管理中,需要大量的人力和物力成本。而ChatGPT的出现将会降低这些成本,让运维管理更加高效和经济。 同时,ChatGPT可以帮助运维人员实现自动化的安全防护,降低系统被攻击的风险。这将使得运维管理更加安全可靠。 关键词:安全防护 总的来说,ChatGPT的出现将会改变传统运维的走向。 ChatGPT将成为未来运维管理的重要组成部分,带来更加高效、灵活、安全可靠的运维管理模式。 关键词:运维管理 总之,ChatGPT的出现将会给传统运维带来一场深刻的变革。
摘要随着网络规模迅速增长、业务类型复杂化、攻击频次提升,以及云网融合集群的普及,传统人工网络运维模式已难以支撑现代ICT架构。 1.背景:为什么AI自动运维会成为2025关键趋势? 1.1网络规模与复杂度急速增长海量终端接入(IoT/工业终端/移动设备)云网融合(Multi-Cloud/SASE/SD-WAN)IPv6深度部署6G、F5G光网络加速演进传统运维方式以“人工+经验”为主 ,难以覆盖:网络问题类型传统处理方式痛点故障定位查日志/抓包/找配置信息耗时长、误判率高性能调优人工分析监控+修改配置响应慢,无法实时调度变更管理手工配置、人工审核错配概率高、安全性差容量预测基于运维经验不准确 4.4数字孪生网络应用模拟链路中断模拟DDoS攻击模拟配置变更回滚规划新业务上线路径这让运维从“经验判断”变为“数据驱动5.AIOps在运营商/政企中的典型应用5.1运营商✔故障提前预测AI识别光纤老化趋势